🧠 BAGEL‑7B‑MoT от ByteDance — открытая мультимодальная модель нового поколения
ByteDance представили BAGEL‑7B‑MoT — мощную мультимодальную модель с 7 млрд активных параметров (14B total), которая уверенно конкурирует с лидерами в генерации, понимании и редактировании изображений.
🔹 Ключевые особенности:
• Архитектура Mixture‑of‑Transformer‑Experts (MoT)
• Два энкодера: один для пикселей (VAE+ViT), второй для семантики
• Обучение на interleaved текст+изображение+видео+web токенах
• Поддержка генерации, редактирования, мультиязычного понимания
🔹 Что умеет BAGEL:
• Понимает изображения на уровне лучших open моделей (Qwen2.5‑VL‑7B)
• Генерирует изображения лучше SD3‑Medium (GenEval score: 0.88)
• Делает интеллектуальное редактирование (CoT score: 55.3)
• Навигация по сценам и предсказание будущих кадров
🔹 Бенчмарки:
🔹 Под капотом:
• SigLIP + FLUX.1 + Flash Attention 2
• Параметры: 7B активных, 14B полных
• Весовые файлы доступны на Hugging Face (~29 GB)
• Лицензия: Apache 2.0
📎 Репозиторий и модель:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
ByteDance представили BAGEL‑7B‑MoT — мощную мультимодальную модель с 7 млрд активных параметров (14B total), которая уверенно конкурирует с лидерами в генерации, понимании и редактировании изображений.
🔹 Ключевые особенности:
• Архитектура Mixture‑of‑Transformer‑Experts (MoT)
• Два энкодера: один для пикселей (VAE+ViT), второй для семантики
• Обучение на interleaved текст+изображение+видео+web токенах
• Поддержка генерации, редактирования, мультиязычного понимания
🔹 Что умеет BAGEL:
• Понимает изображения на уровне лучших open моделей (Qwen2.5‑VL‑7B)
• Генерирует изображения лучше SD3‑Medium (GenEval score: 0.88)
• Делает интеллектуальное редактирование (CoT score: 55.3)
• Навигация по сценам и предсказание будущих кадров
🔹 Бенчмарки:
| Тест | Qwen2.5‑VL‑7B | BAGEL |
|-------------|---------------|--------|
| MME | 2347 | 2388 |
| MMBench | 83.5 | 85.0 |
| MathVista | 68.2 | 73.1 |
| GenEval | 0.80 | 0.88 |
🔹 Под капотом:
• SigLIP + FLUX.1 + Flash Attention 2
• Параметры: 7B активных, 14B полных
• Весовые файлы доступны на Hugging Face (~29 GB)
• Лицензия: Apache 2.0
📎 Репозиторий и модель:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
tg-me.com/data_analysis_ml/3581
Create:
Last Update:
Last Update:
🧠 BAGEL‑7B‑MoT от ByteDance — открытая мультимодальная модель нового поколения
ByteDance представили BAGEL‑7B‑MoT — мощную мультимодальную модель с 7 млрд активных параметров (14B total), которая уверенно конкурирует с лидерами в генерации, понимании и редактировании изображений.
🔹 Ключевые особенности:
• Архитектура Mixture‑of‑Transformer‑Experts (MoT)
• Два энкодера: один для пикселей (VAE+ViT), второй для семантики
• Обучение на interleaved текст+изображение+видео+web токенах
• Поддержка генерации, редактирования, мультиязычного понимания
🔹 Что умеет BAGEL:
• Понимает изображения на уровне лучших open моделей (Qwen2.5‑VL‑7B)
• Генерирует изображения лучше SD3‑Medium (GenEval score: 0.88)
• Делает интеллектуальное редактирование (CoT score: 55.3)
• Навигация по сценам и предсказание будущих кадров
🔹 Бенчмарки:
🔹 Под капотом:
• SigLIP + FLUX.1 + Flash Attention 2
• Параметры: 7B активных, 14B полных
• Весовые файлы доступны на Hugging Face (~29 GB)
• Лицензия: Apache 2.0
📎 Репозиторий и модель:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
ByteDance представили BAGEL‑7B‑MoT — мощную мультимодальную модель с 7 млрд активных параметров (14B total), которая уверенно конкурирует с лидерами в генерации, понимании и редактировании изображений.
🔹 Ключевые особенности:
• Архитектура Mixture‑of‑Transformer‑Experts (MoT)
• Два энкодера: один для пикселей (VAE+ViT), второй для семантики
• Обучение на interleaved текст+изображение+видео+web токенах
• Поддержка генерации, редактирования, мультиязычного понимания
🔹 Что умеет BAGEL:
• Понимает изображения на уровне лучших open моделей (Qwen2.5‑VL‑7B)
• Генерирует изображения лучше SD3‑Medium (GenEval score: 0.88)
• Делает интеллектуальное редактирование (CoT score: 55.3)
• Навигация по сценам и предсказание будущих кадров
🔹 Бенчмарки:
| Тест | Qwen2.5‑VL‑7B | BAGEL |
|-------------|---------------|--------|
| MME | 2347 | 2388 |
| MMBench | 83.5 | 85.0 |
| MathVista | 68.2 | 73.1 |
| GenEval | 0.80 | 0.88 |
🔹 Под капотом:
• SigLIP + FLUX.1 + Flash Attention 2
• Параметры: 7B активных, 14B полных
• Весовые файлы доступны на Hugging Face (~29 GB)
• Лицензия: Apache 2.0
📎 Репозиторий и модель:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
BY Анализ данных (Data analysis)


Share with your friend now:
tg-me.com/data_analysis_ml/3581